六 [mmAV1 人 人 { 生 甘 日 二 || 


CninaxXIV 合 作 基 十 

第 37 卷 第 4 其 计算 机 应 用 研究 vol 7No.4 

录用 定稿 Application Research of Computers Accepted Paper 
pp 


基于 句法 结构 和 依存 关系 的 评价 对 象 提 取 
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摘 要 : 针对 现 有 基于 监督 学 习 模 型 的 评价 对 象 提取 方法 中 ， 多 评价 对 象 和 复合 词 评价 对 象 提 取 精 度 不 高 的 问题 ， 
提出 基于 句法 结构 和 依存 关系 的 评价 对 象 提 取 方 法 。 首 先 ， 根 据 评价 对 象 、 情 感 词 在 句法 结构 中 充当 的 不 同 成 分 ， 
分 析 评 价 对 象 和 情感 词 之 间 的 依存 关系 ; 然后 ， 根 据 不 同 的 依存 关系 定义 特征 ; 最 后 ， 在 条 件 随 机 场 模型 中 ， 通 过 
贪 焚 式 特 征 选择 方法 选取 最 优 的 特征 组 合 ， 进 而 完成 评价 对 象 提 取 。 在 COAE2011 任务 三 的 评测 数据 中 进行 实验 ， 
结果 显示 ， 与 现 有 的 评价 对 象 提 取 方 法 相 比 ，F1 值 高 出 3%~6%， 能 够 有 效 地 识别 评价 对 象 。 
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Opinion target extraction with syntactic structures and dependency relationships 


Qiu Yunfei, Zhou Shuangyue 
(College of Software , Liaoning Technical University, Huludao Liaoning 125105, China) 


Abstract: Present methods of opinion target extraction fail to extract multi-targets and compound target based on supervised 
learning model. This paper proposes an opinion method to deal with this issue based on syntactic structure and dependency 
relation. Firstly, it analysed the dependency relationships between opinion targets and opinion words based on the different 
syntactic constituents of opinion targets and opinion words. Then, it defined features according to different dependencies. 
Finally, it selected the optimal feature combination by the greedy feature selection method to extract opinion targets with the 
conditional random field model. It conducted experiments in the evaluation data of task 3 of COAE2011. The results show 
that the value of Fl is 3%-6% higher than that of the present method of opinion target extraction and the method can 
identify the opinion targets effectively. 
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0 引言 在 评价 对 象 提 取 中 应 用 广泛 。 而 使 用 条 件 随机 场 模 型 进行 讨 

村 价 对 象 提取 的 难点 是 如 何 选择 有 效 的 特征 。 
细 粒 度 情感 分 析 帆 是 近年 来 情感 分 析 研 究 的 热门 ， 而 评 Jakob 等 人 争 首 次 将 CRFs 模型 应 用 到 评价 对 象 提取 ,使 
价 对 象 提取 则 是 其 任务 之 一 。 评 价 对 象 是 指 某 段 评论 中 所 讨 ” 用 了 词 、 词 性 、 最 短 依 存 路 径 、 词 距离 、 是 否 是 主观 句 等 五 
论 的 主题 ， 是 有 情感 词 所 修饰 的 对 象 。 例 如 电影 评论 的 人 物 ”个 特征 ， 表 明了 CRFs 模型 在 评价 对 象 提取 上 的 优势 。 张 莉 
演技 、 特 效 、 音 效 等 都 可 以 作为 评论 电影 的 某 一 具体 对 象 。 等 人 07I 利 用 规则 抽取 句子 的 核心 句 ， 确 定 10 种 句法 结构 作 
评价 对 象 提取 所 可 以 应 用 在 观点 问答 系统 、 推 荐 系统 和 意见 寺 征 ， 结 合 词 、 词 性 用 CRFs 模型 提取 评价 对 象 。 戴 敏 等 人 
商 要 中 ， 识 别 系 统 所 需 的 观点 评价 对 象 。 如 何 有 效 地 提取 评 08 在 CRFs 模型 基础 上 ， 引 入 句法 分 析 捕 捉 评价 对 象 和 情感 
介 句 子 中 的 对 象 一 直 是 研究 的 难点 。 词 之 间 的 句法 信息 ， 适 用 于 中 文句 子 结构 相对 简单 的 情况 。 
当前 ， 主 流 的 评价 对 象 提取 方法 有 基于 非 监 督学 习 的 提 ” ”句法 分 析 可 以 反映 出 句子 各 成 分 之 间 的 结构 关系 ， 但 现 阶 段 
取 方 法 和 基于 监督 学 习 的 提取 方法 两 种 。 基 于 非 监 督学 习 的 。 研究 只 针对 了 主 谓 结构 和 定 中 关系 ,其 他 关系 未 作 具 体 分 析 。 
提取 方法 主要 通过 词性 标注 、 句 法 分 析 、 语 义 分 析 等 构建 规 王 荣 洋 等 人 09] 在 Jakob 的 基础 上 ， 将 特征 归纳 为 词法 、 
则 来 提取 评价 对 象 。 现 有 的 方法 有 关联 规则 喇 、 句 法 分 析 届 9、 语法、 相对 位 置 、 语 义 四 个 类 别 ， 证 明了 语义 角色 标注 特征 
农 存 关系 [581、 词 对 齐 模型 9%I09、 语 义 分 析 093] 等 。 非 监督 学 对 评价 对 象 提取 的 重要 作用 。 郑 敏 洁 等 人 Po 等 提出 一 种 基于 
习 的 提取 方法 不 受 语 料 领 域 影响 ， 领 域 适应 性 强 ， 但 非 监督 层 县 CRFs 的 中 文句 子 评价 对 象 提取 方法 ， 首 先 利用 低层 模 
学 习 方 法 使 用 的 规则 建立 比较 复杂 ， 且 需要 大 量 后 续 步 骤 才 ”型 获得 候选 评价 对 象 ， 再 通过 降 噪 模型 对 噪声 进行 过 滤 ，* 
能 得 到 好 的 提取 结果 。 充 模 型 对 缺失 的 候选 评价 对 象 进行 补充 ， 合 并 模型 对 复合 短 
基于 监督 学 习 的 评价 提取 方法 通过 已 标注 数据 集训 练 统 语 候选 进行 合并 ;最 后 由 高 层 模 型 进行 抽取 评价 对 象 。 刘 全 
计 模 型 ， 对 评价 对 象 进 行 抽 取 。 主 要 模型 有 隐 马 尔 可 夫 模 型 ，” 超 等 人 2 发 掘 微 博 中 评价 对 象 和 情感 词 间 的 多 种 特征 ， 改 进 
(hidden Markov model，HMM) 094、 最 大 业 模 型 (maximum ”CRFs 模型 的 特征 模板 ， 结 合 微 博 转发 关系 特性 进行 句子 级 
entropy model，MEM) 05、 条 件 随 机 场 模 型 (conditional 的 评价 对 象 与 情感 词语 联合 抽取 。 在 条 件 随 机 场 模型 中 引入 
random fields，CREFs)D、 支 持 向 量 机 等 09。 其 中 条 件 随 机 场 ”评价 对 象 与 情感 词 之 间 的 依存 关系 ， 能 够 很 好 地 提取 评价 对 
模型 是 一 种 序列 化 标注 模型 ， 并 可 以 灵活 地 引入 各 种 特征 ， 象 ， 但 没有 对 评价 对 象 内 部 和 情感 词 内 部 的 关系 进行 进一步 
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印 云 飞 ， 等 : 基于 句法 结构 和 依存 关系 的 评价 对 象 提取 


综 上 所 述 ， 目 前 国 
了 很 好 的 成 果 , 但 对 于 中 文 评价 


内 外 在 评价 对 象 提取 方法 和 


究 上 取得 
对 象 提取 还 存在 着 一 些 问题 


a) 中 文 评论 句 的 句 式 比较 复杂 , 含有 多 个 子 句 或 复合 句 


式 ， 导 致 在 一 个 评论 句 中 会 出 现 多 个 情感 词 、 评 价 对 象 ， 如 
价格 便宜 ， 


“昨天 买 了 一 部 手机 ， 
句 中“ 价格"““ 大 小 ”和 “颜色 ” 


大 小 和 颜色 都 很 喜欢 ”一 
都 是 评价 对 象 ， 且 有 “便宜 ” 


“喜欢 ”两 个 情感 词 。 前 人 研究 中 使 


| 情感 词典 对 情感 词 进 


度 下 降 。 
b) 中 文 评论 句 中 存在 


的 评价 对 象 。 


行 标注 ， 很 可 能 丢失 一 部 分 情感 词 ， 而 导致 评价 对 


合 词 型 评价 对 象 。 复 合 词 型 评价 
对 象 中 经 常 嵌 套 多 个 名 词 或 者 动词 ， 如 
n 不 错 /a” 中 “手机 拍照 能 力 ” 是 要 提取 的 评价 对 象 。 如 果 只 
考虑 评价 对 象 和 情感 词 之 间 的 关系 ， 就 


象 提取 精 


“手机 /nm 拍照 /y 能 力 


不 能 提取 出 语义 完整 
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实惠 ”一 句 中 ， 形 容 词 情感 词 “ 实 惠 ” 作 句子 的 谓语 ， 评 价 


对 象 “价格 ” 作 主 语 ， 


者 处 于 主 谓 结构 中 。 


b) 情感 词 作 定语 ,评价 对 象 为 定语 所 修饰 


之 间 的 句法 结构 为 定 中 结构 。 


单词 语 型 评价 对 象 ( 只 有 


对 于 复合 型 评价 对 象 的 提取 则 ， 


只 分 析 评价 对 象 和 情感 词 之 间 的 句 济 


的 成 分 ,它们 


需要 分 析 评 


结构 ， 只 能 分 析出 
个 词语 ), 造成 多 评 
分 丢失 ， 或 多 词语 构成 的 复合 词 型 训 


介 对 象 中 的 部 


FE 价 对 象 的 语义 不 完整 。 


介 对 


象 内 部 结构 。 


a) 单词 语 评价 对 象 作 主语 或 宾语 ， 且 有 


非 


青 感 词 作 定语 


修饰 ， 则 单词 语 评价 对 象 和 非 情感 词 定 语 组 合 构 成 复合 词 型 


评价 对 象 。“ 整 体 成 像 质量 不 错 ” 中 ， 讨 


价 对 象 为 “整体 成 像 


质量 ” 其 中 情感 词 “ 不 错 ” 与 “质量 ”之 间 是 主 谓 结构 ,“ 整 


体 ”“ 成 像 ” 与 “ 
部 之 间 存 在 着 定 中 结构 。 
b) 句 中 存在 多 个 评价 对 象 ， 


针对 上 述 问 题 ， 本 文 从 中 文句 法 分 析 入 手 ， 深 入 探讨 评 
价 对 象 和 情感 词 在 句法 中 充当 的 不 同 成 分 。 根 据 评 价 对 象 和 


情感 词 的 不 同 成 分 组 合 ， 


总 结 评价 对 象 与 情感 词 、 评 价 对 象 


与 评价 对 象 、 情 感 词 与 情感 词 


前导 依存 关系 的 分 析 ， 定 义 本 文 的 特征 ; 


日 村 


间 的 句法 结构 ， 用 句法 结构 
并 根据 词性 和 情感 


词 内 部 关系 自动 标记 出 情感 词 。 最 终 ,在 条 件 随 机 场 模型 中 ， 


各 个 特征 在 评价 对 象 提取 中 的 表现 ， 


使 j 唤 焚 式 特征 选择 


方法 选择 出 效果 最 好 的 特征 组 合 。 
1 ”评价 对 象 和 情感 词 的 句法 结构 分 析 


句法 结构 能 够 反映 出 评价 对 象 和 情感 词 在 句子 中 的 句法 
位 置 ， 与 其 在 句子 中 的 物理 意义 无 关 ， 因 为 评价 对 象 和 情感 


词 之 间 在 句法 中 是 有 关系 的 ， 


这 些 关 系 是 可 以 总 结 的 09， 


所 以 可 根据 情感 词 和 评价 对 象 之 间 的 句法 结构 提取 评价 对 


在 现 


基于 监督 学 习 方法 


中 只 在 


SBV 和 定 中 结构 AIT 在 评价 对 象 提取 中 的 作用 ， 


f 究 了 句法 结构 中 的 主 谓 结构 
但 评价 对 


象 和 情感 词 间 的 句法 结构 不 只 妇 
结构 、 情 感 词 间 结 构 的 分 析 。 
1.1 


副词 ， 


[此 ， 还 需 加 入 对 评价 对 象 间 


评价 对 象 和 情感 词 的 句法 成 分 分 析 

文献 [22] 指 出 ， 评 论 中 的 情感 词 大 多 是 
评价 对 象 多 为 名 词 或 名 词 短语 。 
价 对 象 和 情感 词 在 句法 中 所 充当 的 成 分 : 


容 词 、 动 词 、 
根据 以 下 词性 分 析 评 


a) 形容 词 情 感 词 在 句法 中 充当 谓语 或 定语 , 其 中 谓语 可 


以 使 整个 句子 的 核心 谓语 ， 也 可 以 是 子 句 的 谓语 ， 定 语 可 以 


修饰 主语 ， 也 可 以 修饰 宾语 。 


都 是 后 A 


句法 成 分 相同 时 ， 训 


质量 ” 均 是 定 中 结构 。 复 合 词 


每 个 评价 对 象 对 应 的 情感 记 
PF 价 对 象 之 间 存 在 并 列 结 


型 评价 对 象 内 


站 


构 。“ 硬 件 配置 、 娱 乐 功能 都 很 给 力 ” 一句 中 , 情感 词 “ 给 力 ” 


与 “配置 ”是 主 谓 结 


多 “硬件 ”与 “配置 ”为 定 中 结构 ,“ 功 


能 ” 与 “配置 ” 为 并 列 结构 “娱乐 ”与 “功能 ” 为 定 中 结构 ， 


因此 评价 对 象 为 “硬件 配 
存在 着 并 列 结构 。 
并 列 结构 不 


并 列 结构 ,句法 成 分 相同 ,对 应 的 评价 对 象 可 能 
2 ”评价 对 象 和 情感 词 之 间 的 依存 关系 分 析 


依存 语法 通过 分 析 语 言 单位 内 成 分 之 间 的 依存 关系 揭示 
名 中 词语 在 语法 上 的 搭配 关系 ,， 即 主 谓 关 系 (SBV)、 定 中 关 


系 CATT)、 


”和 “娱乐 功能 ”。 评价 对 象 之 间 


只 出 现在 评价 对 象 之 间 ， 情 感 词 之 间 也 存在 


同 或 不 同 。 


列 关系 (COO ) 等 。 一 个 依存 关系 连接 两 个 词 ， 


分 别 是 核心 词 (head) 和 依存 词 dependent )。 顾 名 思 义 ， 


依存 词 是 依存 于 核心 词 的 ， 在 依存 关系 图 中 ， 


尾 指向 依存 词 。 


核心 词 作 第 


在 现 有 的 基于 监督 学 习 的 订 


相互 对 应 的 ， 本 文 根 ] 


价 对 象 提取 方法 中 ， 对 于 依 
涉及 到 了 依存 父 类 、 依 存 关 系 、 词 语 是 否 与 
情感 词 有 直接 依存 关系 ， 并 没有 对 与 情感 词 的 依存 关系 
; 没有 考虑 评价 对 象 内 部 的 依存 关 


体 


系 ， 降 低 了 复合 


寺 象 的 提取 精度 。 由 于 依存 关系 和 
居 评 价 对 象 和 情感 词 之 间 的 句法 结构 ， 


对 评价 对 象 与 情感 词 
出 五 类 依存 关系 。 下 
依存 关系 1 


b) 动词 情感 词 在 句法 中 充 
证 明 很 受 欢迎 ”中 ， 动 词 1 
语 ， 但 是 这 种 情况 出 现 几 率 较 4 
虑 


当 谓 语 或 宾语 。“ 这 个 数字 能 


间 的 依存 关系 做 详 旨 
下 对 五 类 依存 关系 进 
当 情 感 词 作 谓语 , 评价 对 象 作 主 语 或 宾语 ， 


句法 结构 之 间 是 


的 分 析 ， 并 总 结 


行 说 明 。 


它们 之 间 的 句法 结构 主 谓 结构 或 动 宾 结 构 在 依存 关系 中 表示 


青 感 词 “ 受 欢迎 ”是 “证 明 ” 的 宾 


\， 在 标注 情感 词 时 一 般 不 考 


c) 副词 情感 词 出 现在 形容 词 或 动词 之 前 或 之 后 , 起 到 改 


区 饰 的 形容 词 或 动词 一 起 , 才 
姑 此 在 标注 情感 词 时 ， 不 考虑 晶 


容 词 或 动词 的 情感 程度 的 问题 ， 在 句法 中 充当 状语 或 补 
语 。 在 中 文 评论 语 料 中 ， 副 词 情 感 词 不 能 独立 发 挥 作用 


» 前 
能 起 到 修饰 评价 对 象 的 作用 。 
词 情 感 词 这 一 部 分 。 


d) 评价 对 象 一 般 为 名 词 或 名 词 短语 , 在 句法 中 充当 主语 


或 宾语 。 
1.2 评价 对 象 和 情感 词 之 间 的 句法 结构 


根 
者 所 在 的 句法 结构 : 


情感 词 和 评价 对 象 在 句 中 


E 当 的 句法 成 分 ， 分 析 两 


a) 情感 词 作 谓语 时 ， 其 修饰 的 评价 对 象 作 谓 语 的 主语 或 
宾语 , 它们 之 间 的 句法 结构 是 主 谓 结构 或 动 宾 结 构 。“ 价 格 很 


为 主 谓 关 系 SBV， 动 宾 关 系 VOB， 前 


语 IOB， 后 两 种 情况 出 现 较 少 。 


宾语 FOB， 间 接 宾 


如 例 1“ 鼠 标底 下 的 蓝光 很 


舒服 。 ”词性 标注 和 依存 关系 标 六 


如 图 1 所 示 。 句 中 形容 词 情 


感 词 “ 舒 服 ” 作 名 中 的 谓语 ， 与 它 产 生 主 谓 关 系 的 “蓝光 ?” 


则 为 需要 提取 的 评价 对 象 。 
HED 


pr 


Root 鼠标 底下 的 蓝光 很 舒服 。 


n nd u 


n d a 


妈 1 例 1 的 词性 、 依 存 关 系 


WP 


Fig. 1 Part-of-speech and dependencies of sample 1 


依存 关系 2 


情感 词 与 评价 对 象 存在 定 中 结构 时 ， 则 定 
中 关系 AIT 中 的 核心 词 为 评价 对 象 。 如 例 2“ 精 美的 画面 带 
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来 更 好 的 视觉 体验 。” 词 性 标注 和 依存 关系 标注 如 图 2 所 示 。 ”销量 ”和 “评价 ”。 


名 中 形容 词 情感 词 “ 精 美 ”是 主语 “画面 ”的 定语 ， 根 据 定 证 
中 关系 可 得 , “画面 ”是 所 要 提取 的 评价 对 象 , 形容 词 情感 词 
“好 ” 作 宾语 “体验 ”的 定语 ， 根 据 定 中 关系 得 “体验 ”是 A 
评价 对 象 。 VOB 
Root 她 非常 喜欢 糖果 和 巧克力 。 
r d V n c n wp 
SBV DAN 
Root 精 i , le 和 的 视觉 人 。 轩 4 例 4 的 词性 和 依存 关系 


u n wp 


图 2 例 2 的 词性 和 依存 关系 
Fig.2 Part-of-speech and dependencies of sample 2 
依存 关系 3 复合词 型 评价 对 象 内 部 存在 定 中 结构 ， 对 
应 的 依存 关系 为 ATT。 由 定 中 关系 中 核心 词 和 非 情感 词 的 依 


Fig.4 Part-of-speech and dependencies of sample 4 


存 词组 成 复合 词性 评价 对 象 。 如 例 3“ 手 机 销量 大 幅 上 升 ， Root 手 机 ”销量 大 幅 上升 ， 评 价 也 提高 了 
人 们 对 它 的 评价 也 提高 了 。” 词性 标注 和 依存 关系 标注 如 图 Wp 
3 所 示 。 有 主 谓 关系 得 到 动词 情感 词 “ 上 升 ” 的 评价 对 象 为 图 5 例 5 的 词性 和 依存 关系 
“销量 ” 名 词 “ 手 机 ” 作 定 语 修饰 “销量 ”， 由 定 中 关系 可 Fig.5 Part-of-speech and dependencies of sample 5 
得 复 侈 启 型 评 人 量 ” 
和 3 ”基于 条 件 随 机 场 模型 的 评价 对 象 提取 
条 件 随 机 场 模型 是 由 Lafferty 等 人 D3 于 2001 年 在 MEM 
; 和 HMM 基础 上 提出 的 一 种 无 向 图 模型 ， 可 以 用 于 标注 和 切 
分 序列 化 数据 。 与 隐 马 尔 可 夫 模 型 的 “给 定 当前 状态 的 条 件 
Root 手机 ”销量 大 幅 上 升 ， 评 价 也 提高 了 。 下 ， 定 义 下 一 个 状态 的 分 布 ” 不同 ，CRFs 模型 是 在 给 定 需 
邓 这 人 要 标记 的 观测 序列 的 条 件 下 , 计算 整个 标记 序列 的 联合 概率 。 
图 3 例 3 的 词性 和 依存 关系 CRFs 模型 无 须 严格 的 独立 性 假设 ， 能 够 灵活 地 引入 多 种 特 
Fig.3 Part-of-speech and dependencies of sample 3 征 。 可 以 对 整个 观测 序列 进行 全 局 归 一 化 , 求 得 全 局 最 优 解 ， 
依存 关系 4 评价 对 象 存在 多 个 并 列 ， 则 并 列 关系 COO 解决 标记 偏 置 问题 。 因 此 ，CRFs 可 以 应 用 在 多 种 自然 语言 
得 到 的 核心 词 和 依存 词 均 为 评价 对 象 。 如 例 4“ 她 从 小 就 非 处 理 任 务 中 ， 且 表现 良好 。 本 文 将 评价 对 象 提 取 过 程 看 做 序 


常 喜欢 糖果 和 巧克力 。” 词 性 标注 和 依存 关系 标注 如 图 4 所 示 。 列 化 标注 问题 ， 利 用 条 件 随 机 场 进行 评价 对 象 标 注 。 


动 宾 关 系 得 到 动词 情感 词 “ 喜 欢 ” 的 评价 对 象 是 “糖果 ”，; 3.1 评价 对 象 提取 过 程 

“巧克力 ”并 列 依存 于 “糖果 ”由 并 列 关 系 可 知 , “巧克力 ” 本 文 使 用 条 件 随机 场 模 型 进行 评价 对 象 提取 的 具体 过 程 

岂 是 评价 对 象 。 如 图 6 所 示 。 原 始 语 料 处 理 阶 段 ， 经 过 分 词 、 词 性 标注 、 依 
依存 关系 5 ”情感 词 之 间 存 在 并 列 结构 ， 并 列 关 系 COO 存 关 系 分 析 、 情 感 词 标注 ， 转 换 为 CRFs 识别 的 文本 格式 ， 


的 核心 词 和 依存 词 中 的 一 个 是 情感 词 ， 其 余 均 为 情感 词 。 如 ” 按 一 定 比 例 分 为 训练 语 料 和 测试 语 料 。 
例 5“ 手 机 销量 大 幅 上 升 ， 评 价 也 提高 了 。” 词 性 标注 和 依存 在 训练 阶段 ，CRFs 利用 特征 模板 ， 在 训练 语 料 上 进行 
关系 标注 如 图 5 所 示 。 句 中 “上 升 ” 为 情感 词 ， 与 它 并 列 依 。 训练 ， 得 到 模型 。 在 测试 阶段 ， 用 得 到 的 模型 对 测试 语 料 进 
存 的 “提高 ” 亦 为 情感 词 ,分 别 对 应 不 同 的 评价 对 象 “ 手 机  ” 行 标注 ， 得 到 标注 结果 。 


马 


CRFs 模 型 训练 特征 模板 


原始 语 料 


测试 预料 


图 6 评价 对 象 提取 过 程 
Fig.6 Process of opinion target extraction 

3.2 ”特征 定义 与 评价 对 象 相 关 的 依存 关系 作 四 种 词语 特征 ,加 入 词 、 词 性 、 
在 第 2 章 中 分 析 了 评价 对 象 内 部 、 情 感 词 内 部 、 评 价 对 依存 核心 词 和 依存 类 型 共同 作 条 件 随 机 场 模型 的 特征 。 本 文 
象 和 情感 词 之 间 的 关系 情况 。 根 据 与 情感 词 的 依存 关系 可 以 使 用 到 的 具体 特征 描述 见 表 1。 
得 到 评价 对 象 ， 并 由 评价 对 象 内 部 的 依存 关系 ， 补 充 丢 失 的 Al 词 特征 , 词汇 是 自然 语言 中 表达 语义 的 最 小 单位 , 在 
评价 对 象 。 为 验证 本 文 提出 的 由 句法 结构 得 到 的 依存 关系 能 。” 处 理 中 文 信息 时 具有 十 分 重要 的 作用 。 评 价 对 象 就 是 单个 或 
够 充分 捕捉 评价 对 象 和 情感 词 之 间 的 关系 ， 第 2 章 中 前 四 种 。 多 个 词语 构成 的 ， 所 以 在 评价 对 象 抽 取 过 程 中 ， 将 词汇 作为 
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XIV: 


china 


录用 定稿 


A2 词性 特 


作 


或 动词 ， 


存 关系 连接 两 个 词 核心 词 和 依 
动词 ， 


B1 依存 核心 词 ， 


B2 依存 类 型 ， 


[HH 


AI DA 


前 词语 与 


印 云 飞 ， 等 : 基于 句法 结构 和 依存 关系 的 评价 对 象 提取 


CRFs 模型 的 特征 ， 能 够 为 其 他 特征 做 铺 
村 征 , 一 个 词 的 词性 特 行 


垫 。 


E 能 够 表明 词 在 句子 中 的 
] ， 评 价 对 象 通常 为 名 词 和 名 词 短语 ， 而 情感 词 为 形容 词 
所 以 词性 标注 对 评价 对 象 提取 起 到 很 重要 作用 。 
所 在 依存 关系 中 的 核心 词 。 依 


要 
苗 特 征 的 提取 有 


内 
TEN 


沼 
基于 依存 关系 展开 进行 记 
多 


指导 作 ) 


村 征 描述 


年 词 。 在 中 文句 中 ， 除 了 核心 
其 余部 分 均 依存 于 句 中 某 一 成 分 。 
核心 词 之 间 的 依存 类 型 ， 
F 价 对 象 提取 的 ， 依 存 类 型 对 后 


本 文 


1 
Table ] Description of features 
特征 和 寺 征 描述 取 值 
Al 词 特征 所 有 可 能 的 词 
A2 词性 特征 所 有 可 能 的 词性 
Bl 依存 核心 词 依存 关系 中 的 核心 词 
B2 依存 类 型 依存 关系 类 型 
Cl 主 谓 、 动 宾 关 系 等 数值 型 ，1,2,3,4,0 
C2 形容 词 情感 词 ATT 布尔 型 : 0,1 
C3 名 词 ATT 布尔 型 : 0,1 
C4 名 词 COO 布尔 型 : 0,1 
C1-C4 为 根据 第 2 章 中 依存 关系 1~4 得 到 。 


C1 主 谓 、 动 宾 关系 由 依存 关系 1 得 来 ,数值 型 ,表示 当 


前 词语 是 否 与 谓语 情感 词 有 主 谓 、 动 宾 、 


依存 关系 ， 分 别 对 应 数值 1、2、3、4, 不 符合 为 0。 
C2 形容 词 情感 词 ATT 有 依存 关系 2 得 来 ， 表 示 当 前 词 


语 


动词 
心 记 


对 词 


在 是 否 与 情感 词 


C3 名 词 ATT 


) 是 否 以 ATT 


间 宾 或 前 置 宾语 等 


了 定 中 关系 ， 是 为 1， 不 是 为 0。 
依存 关系 3 得 来 ， 表 示 当 前 词语 (名 词 或 
依存 于 名 词 或 动词 ， 是 为 1， 不 是 为 0。 核 


为 评价 对 象 时 ， 当 前 词语 可 能 与 依存 词 构成 复合 词组 作 
为 评价 对 象 。 


C4 名 词 COO 


C1l~C4 为 四 


语 是 否 与 情感 词 有 之 间 的 依存 关系 的 展开 。 使 用 i 


特征 
象 和 


提高 


3.3 


取 的 


依存 关系 4 得 来 ， 表 示 当 前 词语 是 否 以 
COO 关系 依存 于 名 词 ， 是 为 1， 不 是 为 0。 
种 依存 关系 得 来 的 布尔 〈 数 值 ) 型 特征 ， 是 


进行 评价 对 象 提取 ， 可 以 分 析 哪 些 特征 能 够 捕捉 评价 对 


情感 词 之 间 的 关系 , 以 及 复合 评价 对 象 内 部 词语 的 关系 ， 


评价 对 象 提取 效果 。 
特征 模板 的 设计 
模板 能 


B2， 


4 


果 ， 


的 结 


Al,A2,;ne{-l1,0,1} 


AliiAl,,A21A2,;ne{0,1} 
AliAlAl,A2,iA2,A2,;n=1 
Bl1,,B2,,Cl,,C2,,C3,,C4,;n=0 


词 特征 (A1) 和 词性 特征 (A2) 的 
包括 原子 型 如 式 (1)、 复合 型 如 式 (2) (3); 有 其 余 特征 B1， 


Cl-C4 使 用 当前 窗口 
实验 与 结果 分 析 


本 章 主 要 介绍 本 文 使 月 
得 出 相应 的 分 析 结 果 。 
通过 三 个 裁判 员 进 行 标注 ， 选 取 至 少 两 个 给 出 相同 标注 
果 作 为 评价 对 象 。 表 2 


如 式 (4)。 


反映 出 句子 中 词语 之 间 的 上 下 文 信息 ， 模 板 选 
好 坏 对 评价 对 象 提取 起 着 重要 作用 。 
上 下 文 信息 ， 本 文 模 板 如 式 (1) ~ (4) 所 示 。 


为 较为 充分 地 考虑 


(1) 
(2) 
G3) 
(4) 
窗口 大 小 设置 为 3， 


的 语 料 、 实 验 设置 ， 给 出 实验 结 


FP 为 实验 使 用 的 digital 和 


entertainment 领域 的 数据 集中 的 句子 总 数 和 人 工 标 记 的 评价 
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对 象 总 数 。 
表 2 数据 集 统计 
Table 2 Statistics of data sets 
数据 集 句子 总 数 评价 对 象 总 数 
digital 2516 3705 
entertainment 1091 1558 
4.1 语 料 概述 
数据 集 选 取 COAE2011(http://ir.sdu.edu.cn/ccir2011/ 


coae2011 register.htm) task3 所 用 的 评测 数据 集 的 digital 和 


entertainment 领域 的 数据 集 。 


三 类 标记 符号 {B, L 


分 词 、 词 性 标注 、 依 存 句 法 分 析 。 


人 工 进行 评价 对 象 标注 ， 引 入 
0O} 用 于 评价 对 象 的 识别 ， 原 始 语 料 进行 


对 于 情感 词 的 标注 ， 本 文 未 使 用 外 部 情感 词典 ， 标 记 所 


有 形容 词 、 在 句 中 充 


主张 句子 中 核心 谓语 词 是 支配 其 他 成 分 的 中 心 成 分 ， 而 且 评 
价 对 象 作为 句子 的 评论 主题 ,直接 或 间接 地 依存 于 核心 动 i 
所 以 标记 句 中 的 核心 谓语 词 为 情感 词 。 再 加 入 上 文 分 析 的 与 


当 谓语 的 动词 为 情感 词 .在 依存 句法 中 


于 
B 


pel 


上 述 两 种 情感 词 为 


列 关 系 的 形容 词 、 动 词 亦 标 记 为 情感 词 。 


采用 CRF++(http://crfpp.sourceforge.net/) 线 性 


场 ， 使 用 默认 参数 。 


实验 , 最 终结 果 采 


由 取 的 结果 和 答案 完全 匹配 。 
为 了 得 到 更 可 信 的 结果 , 使 

符合 CRFs 格式 的 语 料 按 9:1 

] 10 次 结果 的 平均 值 。 为 选取 对 评价 对 象 


条 件 随 机 
j 精 确 评价 。 精 确 评价 是 系统 


本 实验 采 ) 


] 10 倍 交叉 验证 的 方法 。 将 
分 为 训练 语 料 和 测试 语 料 进行 


提取 最 为 有 效 的 特征 组 合 , 使 用 仿效 式 特征 选择 方法 8I( 每 次 
选择 评测 结果 最 好 的 特征 ， 直 至 加 入 任何 特征 都 导致 实验 结 
果 下 降 为 止 )。 
为 测试 方法 的 有 效 性 ， 使 用 精确 率 、 召 回 率 和 Fl1 值 三 
个 指标 进行 评测 ， 计 算 公式 如 式 (5) ~ 〈7) 所 示 。 
正确 识别 的 评价 对 象 个 数 
人 确 深 = 100% 
精确 率 = 永 统 识 别 由 的 评价 对 象 不 数 5) 
司 玄 _ 正 确 识别 的 评价 对 象 个 数 
全 于 “实际 的 评价 对 象 个 数 “100% (6) 
可 2x 精 确 率 x 召回 率 
站 从 精确 率直 有 回来 网 


4.2 实验 结果 与 分 析 


本 文 首 先 使 用 词 特征 (A1) 和 词性 特征 (A2) 做 基准 实验 ， 


然后 分 别 六 


独 加 入 其 他 特征 。 


实验 序号 用 exp_ 1 表示。 实验 


结果 如 表 3 所 示 。 


从 表 2 中 可 以 看 出 ， 无 论 是 digital 还 是 entertainment 领 
3 
局 


域 , 加 入 C2 后 , Fl 值 最 高 , 其 中 digital 


entertainment 提高 了 


在 总 数 中 占 比例 较 大 , 说明 这 个 语言 特征 对 
C4 在 单独 加 入 后 ， 提 取 台 
明 这 三 个 特征 单独 与 基本 特征 一 起 时 ， 影 响 】 
引入 C1( 主 谓 ) 的 特征 时 ， 
向 的 叙述 性 词语 ， 导 致 准确 率 下 降 ; 


而 Bl、Cl、C3、 


= 

高 约 2 个 百分点 ， 

6%。 说明 形容 词 情感 词 修饰 的 评价 对 象 
二 


评价 对 象 有 作用 。 
所 下 降 ， 说 


口 人 不 
9| 


该 特征 的 加 入 ， 引 入 了 没有 | 
引入 C4 后 ， 由 于 使 用 


词 和 词性 的 系统 本 身 效果 不 佳 ， 引 入 并 列 词语 ， 会 加 
非 评价 对 象 ， 导 致 实验 结果 下 降 。 
表 4 为 在 digital 领域 使 


验 结果 。 贪 禁 式 特 和 
献 最 大 的 特征 , 所 以 


j 贪 焚 式 特征 选择 方法 选择 的 实 
F 选 择 方法 是 选择 每 次 对 评测 结果 提升 贡 
特征 的 加 入 是 有 顺序 的 。 实 验 序号 exp_2 


表示 , 实验 结果 如 表 


3 所 示 。 由 表 3 可 知 , 加 入 复合 特征 后 ， 


相对 单个 语言 特征 ， 
可 率 提升 效果 明显 。 
C3} ， 


其 他 特征 在 加 入 后 对 结果 没有 正面 效果 ， 在 


评测 结果 有 了 较 明显 地 提升 。 尤 其 是 召 


最 终 得 到 的 特 这 组 合 为 {C2，B2，C1l， 


录用 定稿 印 云 
entertainment 领域 得 到 的 最 终 特 征 组 合 一 致 。 虽 然 在 上 表 加 
入 单个 特征 时 ，C1、C3 对 于 评测 结果 有 负面 的 影响 ， 当 时 
与 其 他 语言 特征 结合 在 一 起 时 ， 则 可 以 起 到 正面 作用 ， 说 明 
本 文 所 提出 的 特征 在 组 合 时 能 够 发 挥 更 好 的 效果 。 
表 3 exp_1 的 结果 
Table3 Result ofexp_1 
digital entertainment 
特征 P (%) R(%) Fl1(%)  P(%) R(%) Fl1(%) 
Al+A2 70.30 42.31 52.68 65.65 32.07 42.98 
+B1 69.31 42.41 52.41 64.28 30.68 41.48 
.+B2 69.47 44.22 53.77 62.94 34.81 44.77 
tl 69.01 41.95 51.99 62.14 32.71 42.79 
C2 71.21 44.07 S4.27 68.98 37.74 48.68 
+03 69.85 42.14 52.39 65.15 31.91 42.74 
O04 69.57 41.77 52.04 65.08 31.76 42.69 
表 4 exp_2 的 结果 
Table4 Result of exp 2 
特征 P(%) R(%) F1(%) 
.+C2 71.21 44.07 54.27 
..+C2+B2 71.30 46.23 SS.86 
.+C2+B2+C1 70.40 47.26 S6.33 
.+C2+B2+C1+C3 70.42 47.24 $56.56 
.+C2+B2+C1+C3+C4 70.34 47.08 56.18 
.+C2+B2+C1+C3+C4+B1 68.60 46.61 $53 
为 验证 本 文 提 出 方法 的 有 效 性 ， 与 文献 [2 和 进行 对 比 。 
对 比 实验 分 别 使 用 三 种 监督 学 习 模型 LC_CRF( 线 性 链 )， 
SK_CRF( 跳 跃 链 )，CCRF( 层 装 条 件 随机 场 ) 采 用 词 、 词 性 、 
语法 依赖 、 最 近 名 词 特征 四 种 特征 。 语 法 依赖 是 词语 是 否 是 
直接 依存 于 情感 词 的 代词 或 名 词 ， 最 近 名 词 是 当前 词语 是 否 


是 离 情感 词 最 近 的 代词 或 名 词 。 相 


三 种 对 


示 。 
从 


区 


7 可 知 ， 在 digital 领域 ， 本 文 方法 的 ; 


值 比 三 种 方法 


a) 在 digital 领域 中 ， 
词 为 名 词 的 复合 词 型 讨 


/d 


对 


b) 
直接 依存 关系 ， 本 文 方法 能 
词 之 间 的 关系 。 


i 
显著 提高 ， 高 出 3 


闪 人 


| 


75.00% 


70.00% 


65.00% 


60.00% 


55.00% 


50.00% 


45.00% 


40.00%% 


民 据 使 


合 词 型 评价 对 象 ， 特 
F 价 对 象 较 多 ， 例 如 “手机 /nn 
内 /a. ”中 “内 ”是 形容 词 在 句 中 是 核心 动词 ， 所 以 是 情感 
词 ,“ 外 壳 ” 以 SBV 依存 于 “ 
存 于 “外 膏 ” 所 以 提取 的 
目的 是 解决 复合 词 型 ， 这 
象 上 是 有 效 的 。 
评价 对 象 和 情感 词 的 句法 结构 明显 , 依存 关系 也 多 为 
效 地 反映 出 评价 对 


] 模 型 的 不 同 ， 简 称 
比方 法 为 LC_ CRF、SK_CRF、CCRF。 在 
entertainment 两 个 领域 的 数据 集 上 的 实验 结果 如 图 


digital 和 
7 和 8 所 


住 确 率 和 了 1 


%~6%。 主 要 原 基 


在 于 ， 


“手机 ”是 名 词 


别 是 中 心 
外 党 /n 很 


以 ATT 依 
介 对 象 为 “手机 外 壳 ”。 
也 验证 了 本 文 方法 在 提取 复合 评价 


本 文 的 


象 和 情感 


< 系统 四 LC_CRF 


R 


有 条 


SK_CRF 


四 CCRF 


到 7 digital 领域 对 比 结果 


Fig.7 Comparison result in digital 
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从 图 8 可 知 ， 在 entertainment 领域 ， 本 文 方法 的 召 区 
较 低 ， 本 文 方法 的 Fl 值 只 比 LC_CRF 
率 也 比 CCRF 方法 的 召 区 


的 实验 中 ， 召 区 
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Ce ad 

党 

NE 
和 


必 高 。 在 digital 
率 低 。 主 要 原因 有 


两 点 : 


a) 一 些 与 评价 对 象 对 应 的 情感 词 ， 
未 能 识别 出 来 。entertainment 
法 中 使 用 的 动词 情感 词 是 
的 动词 ， 会 丢失 一 部 分 在 句 
之 对 应 的 评价 对 象 不 能 识别 
索尼 /nz 手机 mm 更加/d 
心动 词 ， 被 标记 为 情感 词 ， 没 有 与 之 产生 直接 关系 
所 以 整 句 中 没有 提取 出 评价 对 象 ， 但 实际 “适合 ” 
感 词 而 它 以 VOB 依存 于 “是 ”没有 被 标记 为 情感 词 
合 ” 有 SBV 依存 关系 的 “手机 ” 


各 是 /v 


b ) entertain-ment 


之 间 存 在 较 多 
点 ， 正 确 识别 
会 对 准确 


70.00% 


间接 关系 ， 使 得 无 法 正确 依存 关系 。 由 于 这 酚 
的 评价 对 象 较 少 ， 使 得 整体 的 召 
率 造成 一 定 程度 的 影响 。 


尤其 是 动词 情感 词 ， 
领域 动词 情感 词 较 多 。 本 文 方 
动 标注 的 中 心 谓语 词 和 与 它 并 列 
中 作 宾 语 的 动词 情感 词 ， 导 致 与 
而 丢失 。 例 如 “我 /fr 要 /vy 说 /Vv 的 
适合 /Vv。” 中 “是 ”是 句子 的 核 
的 名 词 ， 

应 该 为 情 
; 与“ 适 
也 无 法 被 标记 为 评价 对 象 。 
领域 句 式 较 复杂 ， 评 价 对 象 和 情感 词 


五 


率 较 低 ， 且 


65.00% 


60.00% 


55.00% 
50.00% 
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口 本 系统 四 LC_CRF 四 SK_ CRF 四 CCRF 


图 8 entertainment 领域 对 比 结 
Fig.8 Comparison result in entertainment 
整体 来 说 ， 本 文 方法 提取 效果 不 错 ， 说 明 本 文 基于 句法 
结构 和 依存 关系 提出 的 特征 能 够 反映 情感 词 与 评价 对 象 之 间 


的 关系 ， 对 评价 对 象 提取 有 重要 作用 ; 


但 对 于 动词 情感 词 的 


识别 存在 不 足 之 处 ， 需 要 继续 改进 。 


5 ”结束 语 


针对 中 文 评论 句 中 存在 多 评价 对 象 和 复合 词 型 评价 对 象 
的 现象 ， 提 出 了 基于 句法 结构 和 依存 关系 的 评价 对 象 提取 方 


法 。 句 法 结构 和 依存 关系 能 够 反映 情感 词 与 评价 对 象 之 间 的 
对 应 关系 ; 对 于 句 中 存在 多 评价 对 象 和 复合 词 型 评价 对 象 的 


情况 ,也 可 以 捕捉 评价 对 象 与 | 


青 感 词 ` 评 价 对 象 内 部 的 关系 。 


根据 词性 和 情感 词 内 部 关系 自 
感 词典 ， 能 够 较 充 分 地 标注 出 评价 句 中 的 情感 词 。 实 验 采 用 


动 标注 情感 词 而 未 使 用 外 部 情 


COAE2011 


条 件 随 机 
务 三 
较 对 比方 法 高 出 
这 也 将 是 未 来 看 
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